1
ปัญหาเรื่องบริบท: ทำไมการค้นหาจึงต้องมีการเปลี่ยนแปลง
AI025Lesson 2: Data Transformation
00:00

ปัญหา เรื่องบริบท เกิดจากความไม่สอดคล้องทางสถาปัตยกรรมพื้นฐาน: ข้อมูลของมนุษย์เป็น หนึ่งเดียวและไม่มีโครงสร้างแต่โมเดลภาษาขนาดใหญ่ (LLMs) เป็น จำกัดด้วยโทเค็นและอิงตามการเน้น. หากไม่มีการเปลี่ยนแปลง การส่งข้อมูลดิบเข้าสู่โมเดลจะนำไปสู่ "การปนเปื้อนของบริบท" ซึ่งเสียงรบกวนที่ไม่เกี่ยวข้องจะทำให้ประสิทธิภาพในการตัดสินใจลดลง

ข้อมูลดิบเครื่องมือเปลี่ยนแปลงความแม่นยำในการค้นหาความหน่วงเวลาการควบคุม | คุณภาพ | ความทันสมัยหน่วยการค้นหา

สะพานเชิงกลยุทธ์

การเปลี่ยนแปลงไม่ใช่แค่การแบ่งแยกทางเทคนิค; มันคือ การตัดสินใจเชิงกลยุทธ์. การแบ่งข้อความไม่ใช่แค่การแยกข้อความออกเป็นชิ้นเล็กๆ มันคือการเลือกหน่วยที่ระบบค้นหาจะค้นหา และหน่วยที่ระบบสร้างข้อความจะใช้ในภายหลัง หมายความว่าการแบ่งข้อความส่งผลต่อความแม่นยำในการค้นหา ลำดับการจัดอันดับ ความหน่วงเวลา คุณภาพของคำตอบ งบประมาณโทเค็น และความสามารถในการอ่านอ้างอิงพร้อมกันทั้งหมด

  • การบีบอัดความหมาย: เราบีบอัดข้อมูลดิบที่มีมิติสูงให้อยู่ในโครงสร้างที่เหมาะสมกับหน้าต่างจำกัดของโมเดล ทำให้มั่นใจว่า "เข็มในกองหญ้า" จะสามารถเข้าถึงได้
  • สามเหลี่ยมปฏิบัติการ: การเปลี่ยนแปลงที่ประสบความสำเร็จต้องสร้างสมดุลระหว่าง การควบคุมข้อมูล (การอนุญาต) คุณภาพของโมเดล (การกรองเสียงรบกวน) และ การควบคุมความทันสมัย (การจัดการเวอร์ชัน).